#AI Safety
2개의 글
· 31 min read
해석 가능성의 환상: 우리는 AI의 마음 속을 진정으로 들여다볼 수 있을까?
기계적 해석 가능성은 AI의 블랙박스를 열어젖힐 것이었다. 하지만 AI가 숨는 법을 배운다면? 연구자들이 AI를 이해하려는 것과 관찰자를 속이는 법을 배울 수 있는 모델 사이의 군비 경쟁에 대한 딥다이브.
#AI Deep Dives#AI Safety#Interpretability#Alignment
· 27 min read
AI 관찰자 효과: AI를 테스트하면 AI가 변한다
AI를 측정하면 AI의 행동이 변한다면, AI 안전성을 어떻게 검증할 수 있을까? 상황 인식, 정렬 위장, 그리고 AI 성능의 하이젠베르크 불확정성에 대한 심층 분석.
#AI Deep Dives#AI Safety#Alignment#Observer Effect